| x | y | median |
|---|---|---|
| -74.03 | 40.22 | 59 |
| -74.6 | 40.56 | 58 |
| -74.71 | 40.78 | 90 |
| -74.14 | 40.66 | 80 |
| -74.26 | 40.65 | 50 |
| -74.17 | 40.7 | 47 |
GMRC
• Comprendre et analyser
• Rapport entre positionnement spatial et phénomènes
• Données repérées dans l’espace (plan, altitude, temps)
• Données ponctuelles : distribution dans l’espace des observations
• Données continues
• Données surfaciques
• Coordonnées géographiques (et projections)
• Se munir d’une géométrie : euclidienne
• Base orthonormée
• Coordonnées (x; y)
• Polygone : ensemble de points (vertex) reliés par des segments définissant une région fermée
• Centroïde: barycentre de points
###Données continues
• Donnée élémentaire : 1 évènement avec sa localisation
• Difficile à obtenir
• Donnée élémentaire : n évènements rattachés à une localisation
• Biais écologique : la conclusion sur des groupes est différente de la conclusion sur les individus
• Souvent, mélange de données continues (mesures d’exposition à points fixes) et de données agrégées par toujours au même niveau d’agrégation (populations communales, chômage cantonal)
• Données régulières:
• Données localisées sur une grille régulière de points
• Rare en santé
• Plus fréquent dans les données environnementales
• Données irrégulières
• Données peuvent a priori être localisées dans l’ensemble d’une région
• Fréquent en épidémiologie
• Quantifier l’écart entre la distribution spatiale des observations et une distribution complètement aléatoire dans l’espace.
• Détections de cluster
• Valeur en tout point du territoire concerné
• Géostatistique : prédiction de la valeur en un point non échantillonné
• Observations liées à des localisations fixes
• PIB par région, nombre de cancers par départements. ..
• Les cartes :
• Super outil de communication
• Idéal pour les données spatiales
• Superposition de différents fonds et variables
• Attention aux interprétations
Données ozone de R
Mesure de concentration d’ozone en différents point à New York
| x | y | median |
|---|---|---|
| -74.03 | 40.22 | 59 |
| -74.6 | 40.56 | 58 |
| -74.71 | 40.78 | 90 |
| -74.14 | 40.66 | 80 |
| -74.26 | 40.65 | 50 |
| -74.17 | 40.7 | 47 |
• Points de mesure et valeurs et états
• Plus lisible, mais perte d’information
• Des données ponctuelles aux données agréées, mais perte d’information
• autre possibilité : heatmap
• Ensemble de règles classique permettant de transmettre le plus clairement possible l’information correcte grâce à une image cartographique
Représentation de données relatives
Discrétisation des données
3 – 5 classes
Méthodes : quantiles, mêmes amplitudes…
• Utiliser les packages sf, cartography, ggplot, leaflet
• Avoir des objets spatiaux (shapesfiles)
• Granularité particulière
• Attribuées des données à ces objets spatiaux
• Vérifier la projection des données (« st_crs ») en France :
Lambert 93
• Définir la représentation graphique
Données agrégées à une échelle géographique adaptée
Absence d’indépendance entre les observations
• Dépendance spatiale :
- lorsque la valeur de l’observation i influence la valeur de l’observation j voisine
• Hétérogénéité spatiale:
- l’influence des variables explicatives sur la variable dépendante dépend de la localisation dans l’espace
• Indices d’autocorrélation spatiale
• Lissage spatial
• Régression géographiquement pondérée
• Indices mesurant la dépendance spatiale d’une variable
• Les indices d’autocorrélation spatiale permettent de mesurer la dépendance spatiale entre les valeurs d’une même variable en différents endroits de l’espace.
• L’autocorrélation mesure la corrélation d’une variable avec elle-même
• Analyse statistique suppose indépendance des variables
• Autocorrélation spatiale doit être prise en compte pour l’analyse
• Permets une lecture rapide de la structure spatiale
• Y centrée en abscisse
• Valeur moyenne de la variable y pour les observations voisines
• Si une structure spatiale est mise en évidence:
• Quelle est la force de cette structure ?
• Si une structure spatiale est mise en évidence:
• Quelle est la force de cette structure ?
• Peut-elle être du au hasard?
• Test d’hypothèse nulle : hypothèse de randomisation / hypothèse de normalité
• hypothèse de randomisation
• Comparaison de la distribution observée à celle obtenue en réordonnant au hasard les données
• Le lissage spatial est une méthode d’estimation non paramétrique de la fonction d’intensité d’un processus ponctuel à valeurs dans R2 à partir uniquement d’une de ses réalisations.
• En pratique :
• Noyau : comment prendre en compte le voisinage
• Bande passante : taille du voisinage
• Traitement des effets de bord : comment sont prises en compte les frontières
• Y~a+b1x1+s(space)
• Données agrégées : biais écologique
• Anonymisation des données
• Recueil des données
Master Intelligence des données de santé / UE Technique